Gemini的公允评价

小熊跑的快 2024-01-18

我发现国内外对于Gemini评价分歧很大

国内主要听一些专家聊，觉得推的仓促，pro版本已经在Bard上推行，觉得不够惊艳！

但是海外给了比较好的评价。最大的逻辑是它第一次实现了“原生”，多模态看到了曙光！为什么Gemini比 gpt4v小，但是它花了更多的时间？因为实现原生多模态就是耗时耗钱，除此以外，在应用上高一个量级体验是应该的。

Gemini用的传统路径 Auto-regressive model, 生成是decoder 多模态部分有encoder - decoder 大概用的这个：

gpt4v 是个拼接模型！双模态的！

两者差距：好比拼接模型是一个人和另外一个人说话一样总有意思传达不到位的地方，原生模型就是人之身的大脑身体眼睛各个协调性很高。当然这要花更多时间和训练费用！

因为Gemini采用了encoder-decoder的架构，一个多层的decoder，可以直接输出一些在文本空间能够对齐的token。多模态是原生一起从头训练的而不想很多多模态是拼接而成！

要关机了，Gemini的商用可能没有那么快！它确实赶在圣诞节前给大家看一眼而已！但是现在bard底层还暂时不是1.0。后面b端体验大约一个月后能看到效果！

它对于多模态机器人边缘端进步挺大

继续滑动看下一个

小熊跑的快

向上滑动看下一个